增强学习(RL)研究领域非常活跃,并具有重要的新贡献;特别是考虑到深RL(DRL)的新兴领域。但是,仍然需要解决许多科学和技术挑战,其中我们可以提及抽象行动的能力或在稀疏回报环境中探索环境的难以通过内在动机(IM)来解决的。我们建议通过基于信息理论的新分类法调查这些研究工作:我们在计算上重新审视了惊喜,新颖性和技能学习的概念。这使我们能够确定方法的优势和缺点,并展示当前的研究前景。我们的分析表明,新颖性和惊喜可以帮助建立可转移技能的层次结构,从而进一步抽象环境并使勘探过程更加健壮。
translated by 谷歌翻译
在这个扩展的摘要中,我们讨论了研究本质上动机的代理在文本环境中探索的机会和挑战。我们认为,文本环境和自主代理之间存在重要的协同作用。我们确定文本世界的关键特性,使其适合自动代理人的探索,即深度,广度,进步,壁ni和语言目标的易用性;我们确定了在文本世界中可实施的这些代理商的探索驱动力。我们讨论使用自主代理在文本环境基准上取得进展的机会。最后,我们列出了一些在该领域需要克服的具体挑战。
translated by 谷歌翻译
我们提出了一个新颖的框架,以研究异步联合学习优化,并在梯度更新中延迟。我们的理论框架通过引入随机聚合权重来表示客户更新时间的可变性,从而扩展了标准的FedAvg聚合方案,例如异质硬件功能。我们的形式主义适用于客户具有异质数据集并至少执行随机梯度下降(SGD)的一步。我们证明了这种方案的收敛性,并为相关最小值提供了足够的条件,使其成为联邦问题的最佳选择。我们表明,我们的一般框架适用于现有的优化方案,包括集中学习,FedAvg,异步FedAvg和FedBuff。这里提供的理论允许绘制有意义的指南,以设计在异质条件下的联合学习实验。特别是,我们在这项工作中开发了FedFix,这是FedAvg的新型扩展,从而实现了有效的异步联合训练,同时保留了同步聚合的收敛稳定性。我们在一系列实验上凭经验证明了我们的理论,表明异步FedAvg以稳定性为代价导致快速收敛,我们最终证明了FedFix比同步和异步FedAvg的改善。
translated by 谷歌翻译
联合学习允许客户在保持数据本地时协同学习统计模型。联合学习最初用于培训一个独特的全局模型来为所有客户提供服务,但是当客户的本地数据分布是异构时,这种方法可能是次优。为了解决此限制,最近的个性化联合学习方法为每个客户提供单独的模型,同时仍然利用其他客户端提供的知识。在这项工作中,我们利用深神经网络从非表格数据中提取高质量矢量表示(嵌入),例如图像和文本的能力,提出基于本地记忆的个性化机制。根据全局模型提供的共享表示,将个性化与All-Nealest邻居(KNN)模型插入预先训练的全局模型。我们为所提出的方法提供泛化界限,我们展示了一套联合数据集,这种方法比最先进的方法实现了更高的准确性和公平性。
translated by 谷歌翻译
The increasing size of data generated by smartphones and IoT devices motivated the development of Federated Learning (FL), a framework for on-device collaborative training of machine learning models. First efforts in FL focused on learning a single global model with good average performance across clients, but the global model may be arbitrarily bad for a given client, due to the inherent heterogeneity of local data distributions. Federated multi-task learning (MTL) approaches can learn personalized models by formulating an opportune penalized optimization problem. The penalization term can capture complex relations among personalized models, but eschews clear statistical assumptions about local data distributions. In this work, we propose to study federated MTL under the flexible assumption that each local data distribution is a mixture of unknown underlying distributions. This assumption encompasses most of the existing personalized FL approaches and leads to federated EM-like algorithms for both client-server and fully decentralized settings. Moreover, it provides a principled way to serve personalized models to clients not seen at training time. The algorithms' convergence is analyzed through a novel federated surrogate optimization framework, which can be of general interest. Experimental results on FL benchmarks show that our approach provides models with higher accuracy and fairness than state-of-the-art methods.
translated by 谷歌翻译
虽然客户的采样是当前最先进的联邦学习(FL)方法的核心运营,但该程序对迄今为止的迄今为止迄今为止的收敛和速度的影响。在这项工作中,我们为FL的收敛介绍了一种新颖的分解定理,允许清楚地量化客户对全局模型更新的影响。与之前的收敛分析相反,我们的定理提供了给定的收敛步骤的精确分解,从而能够准确考虑客户端采样和异质性的作用。首先,我们为先前报告的结果提供了一种理论基础,从收敛性与聚集权重之间的关系之间的关系。其次,我们首次证明了FL收敛的质量也受到聚集重量之间产生的协方差的影响。第三,我们建立了聚集权重的总和是另一个减速的来源,应该等于1来提高流动速度。我们的理论是一般性的,这里申请了多项分布(MD)和统一采样,在FL中的两个默认客户端采样,并通过一系列非IID和不平衡情景进行了演示。我们的结果表明,MD采样应用作默认采样方案,因为在学习过程中的数据比变化的恢复,而统一的采样仅在客户端具有相同数量的数据时才是优越的。
translated by 谷歌翻译
考虑随时间演变的粒子群,通过快照监测,使用在连续时间戳的群体内采样的粒子。仅提供对这些快照的访问,我们可以重建这些粒子的单个轨迹吗?这个问题在我们时代的许多重要科学挑战中,特别是单细胞基因组学。在本文中,我们建议将人口动态模拟为欧洲因果乔丹 - 古德莱尔 - 奥托(JKO)的措施的实现:JKO计划陷入困境,即在时间T + 1的人口采取的新配置是交易的新配置在它减少能量的情况下,群体的更好配置,同时保持关闭(在Wasserstein距离)到在T.中观察到的先前配置。我们在这项工作中的目标是学习这样的能源给定数据。为此,我们提出了JKONET,一种计算的神经结构(以端到端可分子的方式),JKO流量给出了参数化能量和初始配置点。与更直接的前进方法相比,我们展示了JKONET配件程序的良好性能和稳健性。
translated by 谷歌翻译